Световни новини без цензура!
Дали AI видеогенераторите мечтаят за Сан Педро? Мадона сред ранните възприематели на следващата вълна на AI
Снимка: apnews.com
AP News | 2024-03-04 | 17:08:37

Дали AI видеогенераторите мечтаят за Сан Педро? Мадона сред ранните възприематели на следващата вълна на AI

Когато Мадона пее хита от 80-те години на миналия век „La Isla Bonita“ на концертното си турне, движещи се образи на въртящи се облаци с нюанси на залеза на гигантските екрани на арената зад нея.

За да получи този ефирен вид, поп легендата прегърна все още неизследван клон на генеративния изкуствен интелект – инструмента за текст към видео. Въведете няколко думи — да речем „сюрреалистичен облачен залез“ или „водопад в джунглата на разсъмване“ — и незабавно ще бъде направено видео.

Следвайки стъпките на AI chatbots и генераторите на неподвижни изображения, някои AI видео ентусиасти казват, че нововъзникващата технология може един ден да преобърне забавлението, позволявайки ви да изберете свой собствен филм с адаптивни сюжетни линии и краища. Но трябва да извървят дълъг път, преди да успеят да направят това, и много етични капани по пътя.

За първите осиновители като Мадона, която отдавна разшири границите на изкуството, това беше по-скоро експеримент. Тя премахна по-ранна версия на концертните визуализации на „La Isla Bonita“, които използваха по-конвенционална компютърна графика, за да предизвикат тропическо настроение.

„Опитахме CGI. Изглеждаше доста скучно и кичозно и тя не го хареса“, каза Саша Касиуха, директор по съдържанието на празничното турне на Мадона, което продължава до края на април. „И тогава решихме да опитаме AI.“

Създателят на ChatGPT OpenAI даде поглед върху това как може да изглежда сложната технология за текст към видео, когато компанията наскоро показа Sora, нов инструмент, който все още не е публично достъпен. Екипът на Мадона изпробва различен продукт от базирания в Ню Йорк стартъп Runway, който помогна за пионер в технологията, като пусна първия си публичен модел за текст към видео миналия март. Компанията пусна по-усъвършенствана версия „Gen-2“ през юни.

Главният изпълнителен директор на Runway Кристобал Валенсуела каза, че въпреки че някои виждат тези инструменти като „магическо устройство, което въвеждате дума и някак си извиква точно това, което сте имали в главата ви“, най-ефективните подходи са от креативни професионалисти, които търсят надграждане на стария от десетилетия софтуер за дигитално редактиране, който вече използват.

Той каза, че Runway все още не може да направи пълнометражен документален филм. Но може да помогне за попълване на фоново видео или b-roll — поддържащите кадри и сцени, които помагат да се разкаже историята.

„Това ви спестява може би една седмица работа“, каза Валенсуела. „Общата нишка на много случаи на употреба е, че хората я използват като начин за увеличаване или ускоряване на нещо, което биха могли да направят преди.“

Целевите клиенти на Runway са „големи стрийминг компании, продуцентски компании, пост -продуцентски компании, компании за визуални ефекти, маркетингови екипи, рекламни компании. Много хора създават съдържание, за да си изкарват прехраната“, каза Валенсуела.

Предстоят опасности. Без ефективни предпазни мерки видеогенераторите с изкуствен интелект биха могли да застрашат демокрациите с убедителни „дълбоки фалшиви“ видеоклипове на неща, които никога не са се случили, или – както вече се случва с генераторите на изображения с изкуствен интелект – да наводнят интернет с фалшиви порнографски сцени, изобразяващи това, което изглежда като истински хора с разпознаваеми лица. Под натиск от страна на регулаторите големите технологични компании обещаха да поставят водни знаци на генерираните от AI изходи, за да помогнат за идентифицирането на това, което е реално.

Също така назряват спорове за авторски права относно колекциите от видео и изображения, на които системите AI се обучават (нито Runway, нито OpenAI разкриват своите източници на данни) и до каква степен те несправедливо възпроизвеждат произведения, защитени със запазена марка. И има опасения, че в един момент машините за правене на видео могат да заменят човешките работни места и артистичност.

Засега най-дългите видеоклипове, генерирани от AI, все още се измерват в секунди и могат да включват резки движения и издайнически проблеми, като изкривени ръце и пръсти. Поправянето на това е „само въпрос на повече данни и повече обучение“ и изчислителната мощност, от която зависи това обучение, каза Александър Вайбел, професор по компютърни науки в университета Карнеги Мелън, който изследва AI от 70-те години на миналия век.

„Сега мога да кажа: „Направете ми видеоклип на заек, облечен като Наполеон, който се разхожда из Ню Йорк“, каза Вайбел. „Той знае как изглежда Ню Йорк, как изглежда заек, как изглежда Наполеон.“

Което е впечатляващо, каза той, но все още е далеч от изработването на завладяваща сюжетна линия.

Преди да пусне своя модел от първо поколение миналата година, претенциите на Runway за славата на AI бяха като съразработчик на генератора на изображения Stable Diffusion. Друга компания, базираната в Лондон Stability AI, оттогава пое разработката на Stable Diffusion.

Основната технология за „дифузионен модел“ зад повечето водещи AI генератори на изображения и видео работи чрез картографиране на шум или произволни данни върху изображения, като ефективно унищожава оригинално изображение и след това предсказва как трябва да изглежда новото. Той заимства идея от физиката, която може да се използва, за да опише например как газът дифундира навън.

„Това, което моделите на дифузия правят, е, че обръщат този процес“, каза Филип Изола, доцент по компютърни науки в Масачузетския технологичен институт. „Те някак взимат случайността и я замразяват обратно в обема. Това е начинът за преминаване от произволност към съдържание. И така можете да правите произволни видеоклипове.“

Генерирането на видео е по-сложно от неподвижни изображения, защото трябва да вземе предвид времевата динамика или как елементите във видеото се променят във времето и в последователности от кадри, каза Даниела Ръс, друг професор от MIT, който ръководи компютърните науки и изкуствените технологии Intelligence Laboratory.

Rus каза, че необходимите изчислителни ресурси са „значително по-високи, отколкото за генериране на неподвижни изображения“, защото „включва обработка и генериране на множество кадри за всяка секунда от видеото.“

Това е без да спира някои заможни технологични компании да се опитват да продължат да надминават една друга в демонстрирането на по-висококачествено генериране на AI видео с по-голяма продължителност. Изискването на писмени описания за създаване на изображение беше само началото. Наскоро Google демонстрира нов проект, наречен Genie, който може да бъде подканен да трансформира снимка или дори скица в „безкрайно разнообразие“ от светове на видеоигри, които могат да се изследват.

В близко бъдеще видеоклиповете, генерирани от AI, вероятно ще се показват в маркетингово и образователно съдържание, предоставяйки по-евтина алтернатива за създаване на оригинални кадри или получаване на стокови видеоклипове, каза Адити Сингх, изследовател в Кливландския държавен университет, който е проучил пазара на текст към видео.

Кога Мадона за първи път говори с екипа си за AI, „основното намерение не беше „О, вижте, това е видеоклип с AI“, каза Касиуха, творчески директор.

„Тя ме попита: „Можеш ли просто да използваш един от тези AI инструменти, за да направиш картината по-отчетлива, за да се увериш, че изглежда актуална и изглежда с висока разделителна способност?“, каза Касиуха. „Тя обича, когато въвеждате нови технологии и нови видове визуални елементи.“

Вече се правят по-дълги филми, генерирани от AI. Runway е домакин на ежегоден филмов фестивал за изкуствен интелект, за да покаже такива произведения. Но дали това е, което човешката публика ще избере да гледа, остава да видим.

„Все още вярвам в хората“, каза Вайбел, професор от CMU. „Все още вярвам, че в крайна сметка това ще бъде симбиоза, при която някой AI предлага нещо, а човек го подобрява или ръководи. Или хората ще го направят и AI ще го поправи.“

————

Жуналистът от Associated Press Джоузеф Б. Фредерик допринесе за този доклад.

Източник: apnews.com


Свързани новини

Коментари

Топ новини

WorldNews

© Всички права запазени!